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上 节 课 我 们 主要 讲 了 为 了 避免 overfitting， 可 以 使 用 regularization 方 法 来 解决 。 在 之 前 
的 bin 上 加 上 一 个 regularizer， 生 成 Bswg， 将 其 最 小 化 ， 这 样 可 以 有 效 减 少 模型 的 复 
杂 度 ， 避 免 过 拟 合 现 象 的 发 生 。 那 么 ， 机 器 学 习 领 域 还 有 许多 选择 ， 如 何 保证 训 | 练 的 
模型 具有 良好 的 泛 化 能 力 ? 本 节 课 将 介绍 一 些 概念 和 方法 来 解决 这 个 选择 性 的 问题 。 


一 、Model Selection Problem 


机 器 学 习 模 型 建立 的 过 程 中 有 许多 选择 ， 例 如 对 于 简单 的 二 元 分 类 问题 ， 首 先是 算法 
A 的 选择 ， 有 PLA，pocket，linear regression，logistic regression 等 等 ; 其 次 是 友 代 
次 数 T 的 选择 ， 有 100，1000,10000 等 等 ; 之 后 是 学 习 速 率 7 的 选择 ， 有 1， 
0.01,0.0001 等 等 ; 接着 是 模型 特征 转换 更 的 选择 ， 有 linear，quadratic，poly-10， 
Legendre-poly-10 等 等 ; 然后 是 正则 化 regularizer 的 选择 ， 有 L2，L1 等 等 ; 最 后 是 正 
则 化 系数 和 的 选择 ， 有 0，0.01，1 等 等 。 不 同 的 选择 搭配 ， 有 不 同 的 机 器 学 习 效果 。 
我 们 的 目标 就 是 找到 最 合适 的 选择 搭配 ， 得 到 一 个 好 的 矩 g， 构 建 最 佳 的 机 器 学 习 模 


型 。 
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假设 有 M 个 模型 ， 对 应 有 Hi ,五 ，,:…, 韭 % ， 即 有 M 个 hypothesis set， 演 算法 为 
41, 4As,… , AMm， 共 M 个 。 我 们 的 目标 是 从 这 M 个 hypothesis set 中 选择 一 个 模型 
H+ ， 通 过 演算 法 A 对 样本 集 D 的 训练 ， 得 到 一 个 最 好 的 和 矩 gm:， 使 其 Bowt (gm ) 
最 小 。 所 以 ， 问 题 的 关键 就 是 机 器 学 习 中 如 何 选择 到 最 好 的 矩 gn* 。 


考虑 有 这 样 一 种 方法 ， 对 M 个 模型 分 别 计算 使 天 ”最 小 的 矩 g， 再 横向 比较 ， 取 其 中 能 
使 刀 m 最 小 的 模型 的 矩 gr : 


1 一 argmin(Em = Ein(Am(D))) 


1<m<M 


但 是 刀 i;;, 足 够 小 并 不 能 表示 模型 好 ， 反 而 可 能 表示 训练 的 和 矩 gy 发 生 了 过 拟 合 ， 泛 化 
能 力 很 差 。 而 且 这 种 “模型 选择 + 学 习 训 | 练 "的 过 程 ， 它 的 VC Dimension 是 

dvc (Hi U Hs)， 模型 复杂 度 增加 。 总 的 来 说 ， 泛 化 能 力 差 ， 用 到 ii, 来 选择 模型 是 不 
好 的 。 


另外 一 种 方法 ， 如 果 有 这 样 一 个 独立 于 训练 样本 的 测试 集 ， 将 M 个 模型 在 测试 集 上 进 
行 测试 ， 看 一 下 biest 的 大 小 ， 则 选取 biest 最 小 的 模型 作为 最 佳 模 型 : 


m* = argmin( Em = Seoul Alo) 


1<m<M 


这 种 测试 集 验 证 的 方法 ， 根 据 finite-bin Hoffding 不 等 式 ， 可 以 得 到 : 


logM 
INiest 





Fout (grm* ) < test (gm ) 下 O( ) 


由 上 式 可 以 看 出 ， 模 型 个 数 M 越 少 ， 测 试 集 数目 越 大 ， 那 么 O(W 3 ) 越 小 ， 即 
Etest (gm ) 越 接近 于 Eowt (gm* ) 


下 面 比 较 一 下 之 前 讲 的 两 种 方法 ， 第 一 种 方法 使 用 瓦 im， 作为 判断 基准 ， 使 用 的 数据 集 

就 是 训练 集 D 本 身 ; 第 二 种 方法 使 用 Brest 作为 判断 基准 ， 使 用 的 是 独立 于 训练 集 D 之 

外 的 测试 集 。 前 者 不 仅 使 用 D 来 训练 不 同 的 gm,， 而 且 又 使 用 D 来 选择 最 好 的 gx: ， 那 

么 gm:* 对 未 知 数据 并 不 一 定 泛 化 能 力 好 。 举 个 例子 ， 这 相当 于 老师 用 学 生 做 过 的 练习 

题 再 来 对 学 生 进 行 考试 ， 那 么 即使 学 生得 到 高 分 ， 也 不 能 说 明 他 的 学 习 能 力 强 。 所 以 
最 小 化 in 的 方法 并 不 科学 。 而 后 者 使 用 的 是 独立 于 D 的 测试 集 ， 相 当 于 新 的 考试 题 能 
更 好 地 反映 学 生 的 真实 水 平 ， 所 以 最 小 化 iest 更 加 理想 。 
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但 是 ， 我 们 拿 到 的 一 都 是 训练 集 D， 测 试 集 是 拿 不 到 的 。 所 以 ， 寻 找 一 种 折 中 的 办 
法 ， 我 们 可 以 使 用 已 有 的 训练 集 D 来 创造 一 个 验证 集 validation set， 即 从 DD 中 划 出 一 间 
分 Dval 作 为 验证 集 。D 另 外 的 部 分 作为 训练 模型 使 用 ，Dwal 独 立 开 来 ， 用 来 测试 各 个 
模型 的 好 坏 ， 最 小 化 Baz， 从 而 选择 最 佳 的 gm 。 
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二 、Validation 


从 训练 集 D 中 抽出 一 部 分 K 个 数据 作为 验证 集 Dwa:，Dwa1 对 应 的 error 记 为 yar。 这 样 
做 的 一 个 前 提 是 保证 Dol 独立 同 分 布 (iid) 于 P(x,y)， 也 就 是 说 Dwa 的 选择 是 从 D 中 
平均 随机 抽样 得 到 的 ， 这 样 能 够 把 Bal 与 Bowt 联 系 起 来 。D 中 去 除 Dwar 后 的 数据 就 是 
供 模 型 选择 的 训练 数据 Dirain， 其 大 小 为 N-k。 从 Dirain 中 选择 最 好 的 和 矩 ， 记 为 gm,。 


Ein(h) Eval(h) 
个 下 
D = Dirain U Dal 
size N size N—K size K 


+. + 
gm = Am(D) gm = Am(Ditrain) 


假如 D 共 有 1000 个 样本 ， 那 么 可 以 选择 其 中 900 个 Dirain， 剩 下 的 100 个 作为 Dya。 
使 用 Dirain 训 | 练 模型 ， 得 到 最 佳 的 g;, ， 使 用 g% 对 Dol 进行 验证 ， 得 到 如 下 Hoffding 
不 等 式 : 


logM 


Eout (gr) < Eval (gm) 十 O( K ) 





假设 有 M 种 模型 hypothesis set，Dal 的 数量 为 K， 那 么 从 每 种 模型 m 中 得 到 一 个 在 
Dwal 上 表现 最 好 的 矩 ， 表 横向 比较 ， 从 M 个 和 矩 中 选择 一 个 最 好 的 mx* 作 为 我 们 最 终 得 
到 的 模型 。 


mm 一 argmin( Em, 一 val(Am( Dtrain))) 
1<m<M 


现在 由 于 数量 为 N 的 总 样本 D 的 一 部 分 K 作 为 验证 集 ， 那 么 只 有 N-k 个 样本 可 供 训练 。 
从 Dirrain 中 得 到 最 好 的 9 . ， 而 总 样本 D 对 应 的 最 好 的 矩 为 gr* 。 根 据 之 前 的 leraning 
curve 很 容易 知道 ， 训 练 样本 越 多 ， 得 到 的 模型 越 准确 ， 其 hypothesis 越 接近 target 
function， 即 D 的 owt 比 Dwrain 的 Bowt 要 小 : 


Fout 











所 以 ， 我 们 通常 的 做 法 是 通过 .Dal 来 选择 最 好 的 算 gi 对 应 的 模型 m”， 再 对 整体 样 
本 集 D 使 用 该 模型 进行 训练 ， 最 终 得 到 最 好 的 矩 gr* 。 


总 结 一 下 ， 使 用 验证 集 进 行 模型 选择 的 整个 过 程 为 : 先 将 D 分 成 两 个 部 分 ， 一 个 是 训 

练 样本 Dirain， 一 个 是 验证 集 Dwoy。 若 有 M 个 模型 ， 那 么 分 别 对 每 个 模型 在 Diroin 上 
进行 训练 ， 得 到 和 矩 9mr ， 再 用 Dwal 对 每 个 gn, 进行 验证 ， 选 择 表 现 最 好 的 和 矩 gj ， 则 该 

和 矩 对 应 的 模型 被 选择 。 最 后 使 用 该 模型 对 整个 D 进 行 训练 ， 得 到 最 终 的 gr* 。 下 图 展示 
了 整个 模型 选择 的 过 程 : 
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Gm* 
不 等 式 关 系 满足 : 
logM ) 
K 
下 面 我 们 举 个 例子 来 解释 这 种 模型 选择 的 方法 的 优越 性 ， 假 设 有 两 个 模型 : 一 个 是 5 阶 


多 项 式 Hs;， 一 个 是 10 阶 多 项 式 Hs,,。 通 过 不 使 用 验证 集 和 使 用 验证 集 两 种 方法 对 
模型 选择 结果 进行 比较 ， 分 析 结 果 如 下 : 


Eout (grm: ) < Eout (gm ) < Eual (9 ) 二 CO 
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图 中 ， 横 坐标 表示 验证 集 数 量 K， 纵 坐标 表示 Bowt 大小。 黑色 水 平 线 表示 没有 验证 
集 ， 完 全 使 用 in, 进 行 判断 基准 ， 那 么 Hs 更 好 一 些 ， 但 是 这 种 方法 的 owt 比较 大 ， 
而 且 与 K 无 天。 黑色 虚线 表示 测试 集 非常 接近 实际 数据 ， 这 是 一 种 理想 的 情况 ， 其 


out 很 小 ， 同 样 也 与 K 无 关 ， 实 际 中 很 难得 到 这 条 虚线 。 红 色 曲 线 表示 使 用 验证 集 ， 
但 是 最 终 选取 的 矩 是 g;,, ， 其 趋势 是 随 着 K 的 增加 ， 它 对 应 的 Bowt 先 减 小 再 增 大 ， 当 K 
大 于 一 定 值 的 时 候 ， 甚 至 会 超过 黑色 水 平 线 。 蓝 色 曲 线 表示 也 使 用 验证 集 ， 最 终 选 取 
的 矩 是 gr* ， 其 趋势 是 随 着 K 的 增加 ， 它 对 应 的 Bowt 先 缓慢 减 小 再 绥 慢 增 大 ， 目 一 直 
位 于 红色 曲线 和 黑色 直线 之 下 。 从 此 可 见 ， 蓝 色 曲 线 对 应 的 方法 最 好 ， 符 合 我 们 之 前 
讨论 的 使 用 验证 集 进 行 模型 选择 效果 最 好 。 


这 里 提 一 点 ， 当 K 大 于 一 定 的 值 时 ， 红 色 曲 线 会 超过 黑色 直线 。 这 是 因为 随 着 K 的 增 
大 ，Dval 增 大 ， 但 可 供 模 型 训练 的 Diroin 在 减 小 ， 那 得 到 的 g%; 不 具有 很 好 的 泛 化 能 
力 ， 即 对 应 的 Bowt 会 增 大 ， 甚 至 当 K 增 大 到 一 定 值 时 ， 比 Bi 模型 更 差 。 


那么 ， 如 何 设 置 验 证 集 K 值 的 大 小 呢 ? 根据 之 前 的 分 析 : 


Eout(9) 人 沪 Eoun(g9 ) -> Eva(g” ) 
(small K) (large K) 


当 K 值 很 大 时 ， 加 var ~ owt， 但 是 gn 与 gm 相差 很 大 ; 当 K 值 很 小 是 ，gn 六 gm， 
但 是 加,ay 与 刀 wwt 可 能 相差 很 大 。 所 以 有 个 折 中 的 办 法 ， 通 常设 置 k 二 芒 。 值 得 一 提 
的 是 ， 划 分 验证 集 ， 通 常 并 不 会 增加 整体 时 间 复 杂 度 ， 反 而 会 减少 ， 因 为 Dirain 减 少 
TT 


三 、Leave-One-Out Cross Validation 


假如 考虑 一 个 极端 的 例子 ，k=1， 也 就 是 说 验证 集 大 小 为 1， 即 每 次 只 用 一 组 数据 对 
gm 进行 验证 。 这 样 做 的 优点 是 gh 六 gm， 但 是 思 yar 与 owt 可 能 相差 很 大 。 为 了 避免 
思 ,al 与 Bowt 相 差 很 大 ， 每 次 从 D 中 取 一 组 作为 验证 集 ， 直 到 所 有 样本 都 作 过 验证 集 ， 
共计 算 N 次 ， 最 后 对 验证 误差 求 平均 ， 得 到 ioow (五 , A)， 这 种 方法 称 之 为 留 一 法 交 
叉 验 证 ， 表 达 式 为 : 


a a 
Brovei lH:; A) 一 N >》 en = N err(gn (zn ), yn ) 


n=1 n=1 
这 样 求 平均 的 目的 是 为 了 让 天 oocv( 妃 , 4A) 尽 可 能 地 接近 Eowvi (9)。 
下 面 用 一 个 例子 图 解 留 一 法 的 过 程 : 





工 
= 





Eloocv(Cconstant) = 3(e1 十 ez 十 63) 


如 上 图 所 示 ， 要 对 二 维 平 面 上 的 三 个 点 做 拟 合 ， 上 面 三 个 图 表示 的 是 线性 模型 ， 下 面 
三 个 图 表示 的 是 常数 模型 。 对 于 两 种 模型 ， 分 别 使 用 留 一 交叉 验证 法 来 计算 ioow0,， 
计算 过 程 都 是 每 次 将 一 个 点 作为 验证 集 ， 其 他 两 个 点 作为 训练 集 ， 最 终 将 得 到 的 验证 
误差 求 平均 值 ， 就 得 到 了 Bioow (linear) 和 looc (constant)， 比 较 两 个 值 的 大 小 ， 
取 值 小 对 应 的 模型 即 为 最 佳 模型 。 


m* = argmin( Em = = Am)) 


1<m<M 


接 下 来 ， 我 们 从 理论 上 分 析 Leave-One-Out 方 法 的 可 行 性 ， 即 为 oo (五 , 4) 是 否 能 保 
证 瓦 必 的 矩 足够 好 ? 假设 有 不 同 的 数据 集 D， 它 的 期 望 分 布 记 为 EDp ， 则 其 

loocw (五 , 4) 可 以 通过 推导 ， 等 于 已 ou (和 N 一 1) 的 平均 值 。 由 于 N-1 近 似 为 N， 

out (N 一 1) 的 平均 值 也 近似 等 于 ow (入 ) 的 平均 值 。 具 体 推导 过 程 如 下 : 
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最 终 我 们 得 到 的 结论 是 忆 /ooww ( 玉 , 4) 的 期 望 值 和 瓦 。w (g”) 的 期 望 值 是 相近 的 ， 这 代 
表 得 到 了 比较 理想 的 Bowt (9g)，Leave-One-Oui 方 法 是 可 行 的 。 


举 一 个 例子 ， 使 用 两 个 特征 : Average Intensity 和 Symmetry 加 上 这 两 个 特征 的 非 线性 
变换 (例如 高 阶 项 ) 来 进行 手写 数字 识别 。 平 面 特征 分 布 如 下 图 所 示 : 


Symmetry 
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Error 与 特征 数量 的 关系 如 下 图 所 示 : 
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从 图 中 我 们 看 出 ， 随 着 特征 数量 的 增加 ，iy, 不 断 减 小 ，Bowt 先 减 小 再 增 大 ， 虽 然 
i 是 不 断 减 小 的 ， 但 是 它 与 Bowt 的 差距 越 来 越 大 ， 发 生 了 过 拟 合 ， 泛 化 能 力 太 差 。 
而 情 ow 与 Bowt 的 分 布 基本 一 怪 ， 能 较 好 地 反映 ow 的 变化 。 所 以 ,我 们 只 要 使 用 
Leave-One-Out 方 法 得 到 使 bo 最 小 的 模型 ， 就 能 保证 其 Bowt 足 够 小 。 下 图 是 分 别 使 
用 i, 和 bow 进行 训练 得 到 的 分 类 曲线 : 


Symmetry 
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Average Intensity 


select by Ein select by 后 oocv 


很 明显 可 以 看 出 7 使 用 Fin 发 生 了 过 拟 合 7 而 EE loocv 分 类 效果 更 好 , 泛 化 能 力 强 。 


四 、V-Fold Cross Validation 


接 下 来 我 们 看 看 Leave-One-Out 可 能 的 问题 是 什么 。 首 先 ， 第 一 个 问题 是 计算 量 ， 假 
设 N=1000， 那 么 就 需要 计算 1000 次 的 已 oocv ， 再 计算 其 平均 值 。 当 N 很 大 的 时 候 ， 计 
算 量 是 巨大 的 ， 很 耗费 时 间 。 第 二 个 问题 是 稳定 性 ， 例 如 对 于 二 分 类 问题 ， 取 值 只 有 0 
和 1 两 种 ， 预 测 本 身 存在 不 稳定 的 因素 ， 那 么 对 所 有 的 Bioocw 计 算 平均 值 可 能 会 带 来 很 
大 的 数值 跳动 ， 稳 定性 不 好 。 所 以 ， 这 两 个 因素 决定 了 Leave-One-Ou 访 法 在 实际 中 
并 不 常用 。 


针对 Leave-One-Out 的 缺点 ， 我 们 对 其 作出 了 改进 。Leave-One-Out 是 将 N 个 数据 分 成 
N 分 ， 那 么 改进 措施 是 将 N 个 数据 分 成 V 份 (例如 V=10) ,计算 过 程 与 Leave-One-Out 
相似 。 这 样 可 以 减少 总 的 计算 量 ， 又 能 进行 交叉 验证 ， 得 到 最 好 的 和 矩 ， 这 种 方法 称 为 
V- 折 交叉 验证 。 其 实 Leave-One-Out 就 是 V- 折 交叉 验证 的 一 个 极端 例子 。 


让 二 _ 
Eo (H, A) 一 V >》， EW (gy) 
v=1 
所 以 呢 ， 一 般 的 Validation 使 用 V- 折 交叉 验证 来 选择 最 佳 的 模型 。 值 得 一 提 的 是 
Validation 的 数据 来 源 也 是 样本 集中 的 ， 所 以 并 不 能 保证 交叉 验证 的 效果 好 ， 它 的 模型 
一 定好 。 只 有 样本 数据 越 多 ， 越 广泛 ， 那 么 Validation 的 结果 越 可 信 ， 其 选择 的 模型 泛 
化 能 力 越 强 。 


五 、 总 结 

本 节 课 主要 介绍 了 Validation 验 证 。 先 从 如 何 选择 一 个 好 的 模型 开始 切入 ， 例 如 使 用 
in、Bitest 都 是 不 太 好 的 ， 最 终 使 用 bal 来 进行 模型 选择 。 然 后 详细 介绍 了 
Validation 的 过 程 。 最 后 ， 介 绍 了 Leave-One-Out 和 V-Fold Cross 两 种 验证 方法 ， 比 较 
它们 各 自 的 优点 和 和 缺点， 实际 情况 下 ，V-Fold Cross 更 加 常用 。 

注 明 : 


文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基石 》 课 程 


